========================================================

数据预览

## [1] 4898   12

预览各个变量

## 'data.frame':    4898 obs. of  12 variables:
##  $ fixed.acidity       : num  7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
##  $ volatile.acidity    : num  0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
##  $ citric.acid         : num  0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
##  $ residual.sugar      : num  20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
##  $ chlorides           : num  0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
##  $ free.sulfur.dioxide : num  45 14 30 47 47 30 30 45 14 28 ...
##  $ total.sulfur.dioxide: num  170 132 97 186 186 97 136 170 132 129 ...
##  $ density             : num  1.001 0.994 0.995 0.996 0.996 ...
##  $ pH                  : num  3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
##  $ sulphates           : num  0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
##  $ alcohol             : num  8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
##  $ quality             : int  6 6 6 6 6 6 6 6 6 6 ...

查看各个变量的部分描述性统计结果。

##  fixed.acidity    volatile.acidity  citric.acid     residual.sugar  
##  Min.   : 3.800   Min.   :0.0800   Min.   :0.0000   Min.   : 0.600  
##  1st Qu.: 6.300   1st Qu.:0.2100   1st Qu.:0.2700   1st Qu.: 1.700  
##  Median : 6.800   Median :0.2600   Median :0.3200   Median : 5.200  
##  Mean   : 6.855   Mean   :0.2782   Mean   :0.3342   Mean   : 6.391  
##  3rd Qu.: 7.300   3rd Qu.:0.3200   3rd Qu.:0.3900   3rd Qu.: 9.900  
##  Max.   :14.200   Max.   :1.1000   Max.   :1.6600   Max.   :65.800  
##    chlorides       free.sulfur.dioxide total.sulfur.dioxide
##  Min.   :0.00900   Min.   :  2.00      Min.   :  9.0       
##  1st Qu.:0.03600   1st Qu.: 23.00      1st Qu.:108.0       
##  Median :0.04300   Median : 34.00      Median :134.0       
##  Mean   :0.04577   Mean   : 35.31      Mean   :138.4       
##  3rd Qu.:0.05000   3rd Qu.: 46.00      3rd Qu.:167.0       
##  Max.   :0.34600   Max.   :289.00      Max.   :440.0       
##     density             pH          sulphates         alcohol     
##  Min.   :0.9871   Min.   :2.720   Min.   :0.2200   Min.   : 8.00  
##  1st Qu.:0.9917   1st Qu.:3.090   1st Qu.:0.4100   1st Qu.: 9.50  
##  Median :0.9937   Median :3.180   Median :0.4700   Median :10.40  
##  Mean   :0.9940   Mean   :3.188   Mean   :0.4898   Mean   :10.51  
##  3rd Qu.:0.9961   3rd Qu.:3.280   3rd Qu.:0.5500   3rd Qu.:11.40  
##  Max.   :1.0390   Max.   :3.820   Max.   :1.0800   Max.   :14.20  
##     quality     
##  Min.   :3.000  
##  1st Qu.:5.000  
##  Median :6.000  
##  Mean   :5.878  
##  3rd Qu.:6.000  
##  Max.   :9.000

查看数据前10行。

##    fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 1            7.0             0.27        0.36           20.7     0.045
## 2            6.3             0.30        0.34            1.6     0.049
## 3            8.1             0.28        0.40            6.9     0.050
## 4            7.2             0.23        0.32            8.5     0.058
## 5            7.2             0.23        0.32            8.5     0.058
## 6            8.1             0.28        0.40            6.9     0.050
## 7            6.2             0.32        0.16            7.0     0.045
## 8            7.0             0.27        0.36           20.7     0.045
## 9            6.3             0.30        0.34            1.6     0.049
## 10           8.1             0.22        0.43            1.5     0.044
##    free.sulfur.dioxide total.sulfur.dioxide density   pH sulphates alcohol
## 1                   45                  170  1.0010 3.00      0.45     8.8
## 2                   14                  132  0.9940 3.30      0.49     9.5
## 3                   30                   97  0.9951 3.26      0.44    10.1
## 4                   47                  186  0.9956 3.19      0.40     9.9
## 5                   47                  186  0.9956 3.19      0.40     9.9
## 6                   30                   97  0.9951 3.26      0.44    10.1
## 7                   30                  136  0.9949 3.18      0.47     9.6
## 8                   45                  170  1.0010 3.00      0.45     8.8
## 9                   14                  132  0.9940 3.30      0.49     9.5
## 10                  28                  129  0.9938 3.22      0.45    11.0
##    quality
## 1        6
## 2        6
## 3        6
## 4        6
## 5        6
## 6        6
## 7        6
## 8        6
## 9        6
## 10       6

本数据集(白葡萄酒质量),共有12个变量,共有4898个观测值

单变量绘图选择

fixed.acidity

为了了解fixed.acidity的分布情况,作出fixed.acidity 的直方图来观察。

查看fixed.acidity 的数据统计计数,可以看到大部分数据的精度(精确到小数点后几位),为直方图的binwidth作参考。

## 
##  3.8  3.9  4.2  4.4  4.5  4.6  4.7  4.8  4.9    5  5.1  5.2  5.3  5.4  5.5 
##    1    1    2    3    1    1    5    9    7   24   23   28   27   28   31 
##  5.6  5.7  5.8  5.9    6  6.1 6.15  6.2  6.3  6.4 6.45  6.5  6.6  6.7  6.8 
##   71   88  121  103  184  155    2  192  188  280    1  225  290  236  308 
##  6.9    7  7.1 7.15  7.2  7.3  7.4  7.5  7.6  7.7  7.8  7.9    8  8.1  8.2 
##  241  232  200    2  206  178  194  123  153   93   93   74   80   56   56 
##  8.3  8.4  8.5  8.6  8.7  8.8  8.9    9  9.1  9.2  9.3  9.4  9.5  9.6  9.7 
##   52   35   32   25   15   18   16   17    6   21    3   11    2    5    4 
##  9.8  9.9   10 10.2 10.3 10.7 11.8 14.2 
##    8    2    3    1    2    2    1    1

查看 fixed.acidity 的描述性统计,及其1%和99%的分位数

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.800   6.300   6.800   6.855   7.300  14.200
##  1% 99% 
## 5.0 9.2

小结:

  • 酒石酸(不易挥发酸),单位为g/dm^3,也就是每升含有多少克。

  • 上图表明,此数据集中的大部分白葡萄酒的酒石酸含量在5到9之间,很少有超过10的,低于5的也很少。

  • 后面可以看看这些极端值(大于10,或者小于4)对酒的评分影响。

volatile.acidity

为了了解fixed.acidity的分布情况,作出volatile.acidity 的直方图来观察。

这里,再来看看volatile.acidity的数值统计计数。

## 
##  0.08 0.085  0.09   0.1 0.105  0.11 0.115  0.12 0.125  0.13 0.135  0.14 
##     4     1     1     6     6    13     3    34     3    44     1    56 
## 0.145  0.15 0.155  0.16 0.165  0.17 0.175  0.18 0.185  0.19   0.2 0.205 
##     4    88     5   141     2   140     1   177     5   170   214     4 
##  0.21 0.215  0.22 0.225  0.23 0.235  0.24 0.245  0.25 0.255  0.26 0.265 
##   191     1   229     4   216     4   253     4   231    10   240     5 
##  0.27 0.275  0.28 0.285  0.29 0.295   0.3 0.305  0.31 0.315  0.32 0.325 
##   218     3   263     5   160     3   198     4   148     4   182     2 
##  0.33 0.335  0.34 0.345  0.35 0.355  0.36 0.365  0.37 0.375  0.38 0.385 
##   134     7   135     9    86     1   104     2    65     2    63     2 
##  0.39 0.395   0.4 0.405  0.41 0.415  0.42 0.425  0.43 0.435  0.44 0.445 
##    61     2    59     1    54     4    36     2    35     2    46     4 
##  0.45 0.455  0.46  0.47 0.475  0.48 0.485  0.49 0.495   0.5  0.51  0.52 
##    25     2    30    15     3    17     3    14     2    14    10    10 
##  0.53  0.54 0.545  0.55 0.555  0.56  0.57  0.58 0.585  0.59 0.595   0.6 
##     8    10     1    14     2     9     4     7     2     4     2     7 
##  0.61 0.615  0.62  0.63  0.64  0.65 0.655  0.66  0.67  0.68 0.685  0.69 
##     7     4     5     2     7     2     3     4     5     3     1     2 
## 0.695 0.705  0.71  0.73  0.74  0.75  0.76  0.78 0.785 0.815  0.85 0.905 
##     3     2     1     1     1     1     2     1     1     1     1     1 
##  0.91  0.93 0.965 1.005   1.1 
##     1     1     1     1     1

查看 volatile.acidity 的描述性统计,还有1%和99%的分位数。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0800  0.2100  0.2600  0.2782  0.3200  1.1000
##   1%  99% 
## 0.12 0.63

小结:

  • 醋酸/乙酸(挥发性酸性),葡萄酒中醋酸的含量,单位为 g/dm^3。

  • 根据上图和表格数据,可以看出此数据集中的大部分白葡萄酒的醋酸含量在0.1到0.6之间。

  • 文档表明在过高的水平下会导致不愉快的醋味。即醋酸含量在过高情况下,评分可能会降低。

citric.acid

查看 citric.acid 的数据分布状况。

查看 citric.acid 的统计计数情况。

## 
##    0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09  0.1 0.11 0.12 0.13 0.14 
##   19    7    6    2   12    5    6   12    4   12   14    1   19   17   27 
## 0.15 0.16 0.17 0.18 0.19  0.2 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 
##   23   33   27   49   48   70   66  104   83  181  136  219  216  282  223 
##  0.3 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39  0.4 0.41 0.42 0.43 0.44 
##  307  200  257  183  225  137  177  134  122  101  117   82   95   37   63 
## 0.45 0.46 0.47 0.48 0.49  0.5 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 
##   46   51   38   39  215   35   25   23   16   19   11   22   13   21    6 
##  0.6 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69  0.7 0.71 0.72 0.73 0.74 
##    6    9   14    4    6    8    7    7    7    5    3    9    5    5   41 
## 0.78 0.79  0.8 0.81 0.82 0.86 0.88 0.91 0.99    1 1.23 1.66 
##    2    2    2    2    2    1    1    2    1    5    1    1

查看 citric.acid 的部分描述性统计结果,1%和99%对应的分位数。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.2700  0.3200  0.3342  0.3900  1.6600
##   1%  99% 
## 0.05 0.74

小结:

  • 柠檬酸,单位为g/dm^3。

  • 大部分处于0.1和0.7之间,最高为1.66,最低为0。

  • 文档显示少量柠檬酸可以为葡萄酒添加“新鲜度”和风味,我理解为少许量的柠檬酸可以增加评分。

residual.sugar

查看 residual.sugar 的数据分布情况。

发现residual.sugar是个右偏斜长尾数据,这里我将其进行对数转换后,再作直方图如下。

查看 residual.sugar 的部分描述性统计结果。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.600   1.700   5.200   6.391   9.900  65.800
##   1%  99% 
##  0.9 18.8

查看 residual.sugar > 45 的行数据。

##      fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 2782           7.8            0.965         0.6           65.8     0.074
##      free.sulfur.dioxide total.sulfur.dioxide density   pH sulphates
## 2782                   8                  160 1.03898 3.39      0.69
##      alcohol quality
## 2782    11.7       6

小结:

  • 剩余糖含量,单位为g/dm^3。

  • 经过对数转换后,数据呈双峰分布。换句话说,大部分糖含量是处于这两个波峰附近的。

  • 两个波峰对应的横轴坐标,一个大概为1.5,另一个大概为10.0。

  • 文档表明,超过45克/升的葡萄酒被认为是甜的,不过通过上图,可以看出超过45克/升的葡萄酒很少,通过查询可知,只有一种葡萄酒剩余糖含量超过了45克/升。评分则为6分(满分10分),中规中矩。

chlorides

查看 chlorides 的数据分布。

查看 chlorides 的值统计计数。

## 
## 0.009 0.012 0.013 0.014 0.015 0.016 0.017 0.018 0.019  0.02 0.021 0.022 
##     1     1     1     4     4     5     5    10     9    16    19    19 
## 0.023 0.024 0.025 0.026 0.027 0.028 0.029  0.03 0.031 0.032 0.033 0.034 
##    20    34    30    54    58    85    81   108   107   109   119   168 
## 0.035 0.036 0.037 0.038 0.039  0.04 0.041 0.042 0.043 0.044 0.045 0.046 
##   130   200   160   167   157   182   147   184   141   201   170   181 
## 0.047 0.048 0.049  0.05 0.051 0.052 0.053 0.054 0.055 0.056 0.057 0.058 
##   171   174   133   170   115   104   130    99    61    88    68    53 
## 0.059  0.06 0.061 0.062 0.063 0.064 0.065 0.066 0.067 0.068 0.069  0.07 
##    36    46    19    25    23    15     8    18    18     7    18     6 
## 0.071 0.072 0.073 0.074 0.075 0.076 0.077 0.078 0.079  0.08 0.081 0.082 
##     5     2     5     8     2     9     1     2     4     4     2     2 
## 0.083 0.084 0.085 0.086 0.087 0.088 0.089  0.09 0.091 0.092 0.093 0.094 
##     5     5     3     4     3     2     1     2     1     3     3     5 
## 0.095 0.096 0.097 0.098 0.099 0.102 0.104 0.105 0.108  0.11 0.112 0.114 
##     2     6     1     3     1     1     1     1     2     3     1     1 
## 0.115 0.117 0.118 0.119  0.12 0.121 0.122 0.123 0.126 0.127  0.13 0.132 
##     1     3     1     3     1     2     1     4     3     2     1     1 
## 0.133 0.135 0.136 0.137 0.138 0.142 0.144 0.145 0.146 0.147 0.148 0.149 
##     1     1     1     2     2     3     1     1     1     2     1     1 
##  0.15 0.152 0.154 0.156 0.157 0.158  0.16 0.167 0.168 0.169  0.17 0.171 
##     1     2     1     1     4     1     2     2     3     2     2     1 
## 0.172 0.173 0.174 0.175 0.176 0.179  0.18 0.184 0.185 0.186 0.194 0.197 
##     2     2     2     2     2     1     1     2     2     1     1     2 
##   0.2 0.201 0.204 0.208 0.209 0.211 0.212 0.217 0.239  0.24 0.244 0.255 
##     1     2     1     2     1     1     1     1     1     1     1     1 
## 0.271  0.29 0.301 0.346 
##     1     1     1     1

查看 chlorides 部分描述统结果。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600
##   1%  99% 
## 0.02 0.16

小结:

  • 葡萄酒中的氯化物含量,文档中指代的是盐(氯化钠),单位为g/dm^3。

  • 大部分位于0.01到0.1之间。

对x轴进行log10转换后 chlorides的直方图。

free.sulfur.dioxide

查看 free.sulfur.dioxide 的分布情况。

这里由于数据是集中于0到100之间的,在0到100之间,设置数值间隔25为一个刻度。

查看 free.sulfur.dioxide 的值统计计数情况。

## 
##     2     3     4     5     6     7     8     9    10    11  11.5    12 
##     1    10    11    25    32    25    35    29    55    45     1    51 
##    13    14    15  15.5    16    17    18    19  19.5    20    21    22 
##    55    68    79     1    58    89    80    84     1   101    93   102 
##    23  23.5    24    25    26    27    28  28.5    29    30  30.5    31 
##   110     1   118   111   129    99   112     1   160    99     1   132 
##    32    33    34    35  35.5    36    37    38  38.5    39  39.5    40 
##   109   112   128   129     2   127   111   102     1    89     1   103 
##  40.5    41  41.5    42  42.5    43  43.5    44  44.5    45    46    47 
##     1   104     2    86     1    63     1    75     4   101    64    91 
##    48  48.5    49    50  50.5    51  51.5    52  52.5    53    54    55 
##    66     7    82    64     2    54     1    72     4    68    61    58 
##    56    57    58    59  59.5    60  60.5    61  61.5    62    63    64 
##    42    44    37    39     2    38     2    47     1    29    30    23 
##  64.5    65    66    67    68    69    70  70.5    71    72    73  73.5 
##     1    14    17    22    24    17    11     1     5     6     8     4 
##    74    75    76    77  77.5    78    79  79.5    80    81    82  82.5 
##     5     7     5     5     1     4     2     4     1     7     2     1 
##    83    85    86    87    88    89    93    95    96    97    98   101 
##     4     2     2     4     1     1     1     1     3     1     3     2 
##   105   108   110   112 118.5 122.5   124   128   131 138.5 146.5   289 
##     2     3     1     1     1     1     1     1     1     1     1     1

查看 free.sulfur.dioxide 的部分描述性统计结果。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00   23.00   34.00   35.31   46.00  289.00
##  1% 99% 
##   6  81

小结:

  • 游离二氧化硫,单位为mg/dm^3(每升多少毫克)。

  • 大部分处于0到75之间。

  • 二氧化硫的自由形式存在于分子SO2(即溶解气体)和亚硫酸氢离子之间的平衡中,它阻止了微生物的生长和葡萄酒的氧化。

total.sulfur.dioxide

绘制 total.sulfur.dioxide 的直方图。

查看 total.sulfur.dioxide 的部分描述性统计结果。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     9.0   108.0   134.0   138.4   167.0   440.0
##     1%    99% 
##  50.97 241.03

小结:

  • 总二氧化硫的含量,单位为g/cm^3(每毫升多少克)。

  • 大部分位于50与250之间。

  • 文档显示,在低浓度的情况下,二氧化硫在葡萄酒中几乎是无法检测到的,但在游离的二氧化硫浓度超过50 ppm时,二氧化硫在鼻子和葡萄酒的味道中变得明显。

density

查看 density 的数据分布情况。

查看 density 的部分描述性统计结果。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9871  0.9917  0.9937  0.9940  0.9961  1.0390
##        1%       99% 
## 0.9887794 1.0003021

小结:

  • 葡萄酒的密度,单位为g/cm^3。

  • 取决于酒精和糖的含量。

  • 大部分处于0.99到1.00之间。

pH

查看 pH 的数据分布,这里选取直方图。

查看 pH 的部分描述性统计结果。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.720   3.090   3.180   3.188   3.280   3.820
##   1%  99% 
## 2.88 3.60

小结:

  • 描述酒的酸碱性,pH值

  • 大部分处于2.9到3.5之间

sulphates

查看 sulphates 的数据分布情况。

查看 sulphates 数据的部分描述性统计结果。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2200  0.4100  0.4700  0.4898  0.5500  1.0800
##   1%  99% 
## 0.29 0.83

小结:

  • 硫酸盐的含量,单位为g/dm3。

  • 文档显示,这里的硫酸盐具体为硫酸钾,能促进二氧化硫气体(S02)水平的葡萄酒添加剂,可作为一种抗菌剂和抗氧化剂。

  • 大部分位于0.3到0.38之间。

alcohol

查看 alcohol 的数据分布情况。

查看 alcohol 的部分描述性统计结果。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00    9.50   10.40   10.51   11.40   14.20
##   1%  99% 
##  8.7 13.4

小结:

  • 酒精含量,单位为体积百分比。

  • 大部分处于9到13之间。

quality

查看 quality 的分布。

查看 quality的统计计数以及部分描述性统计结果。

## 
##    3    4    5    6    7    8    9 
##   20  163 1457 2198  880  175    5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.878   6.000   9.000
##  1% 99% 
##   4   8

小结:

  • 质量得分,或者说是评分,得分在0到10之间,为整型变量。

  • 本数据集中,最高得分为9分,不过只有5个。大多数评分是5,6,7,其中6分占比最多。

  • 这里我认为此处可以转为分类变量,便于之后的分类分析。有两个做法,如下:
  • 法1,直接转为0,1,2,3,4,5,6,7,8,9,10这11种分类。最终存储为score列。
  • 法2,聚合某些数值,将聚合后的数值再次划分为分类变量,比如6分以下,为次品酒,6分和7分则为中等酒。7分以上,酒的品味则为上佳。最终存储为class列。

这里,我按照这两种方式,将quality这列变量转为因子变量。

预览处理后的数据。

## 'data.frame':    4898 obs. of  14 variables:
##  $ fixed.acidity       : num  7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
##  $ volatile.acidity    : num  0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
##  $ citric.acid         : num  0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
##  $ residual.sugar      : num  20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
##  $ chlorides           : num  0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
##  $ free.sulfur.dioxide : num  45 14 30 47 47 30 30 45 14 28 ...
##  $ total.sulfur.dioxide: num  170 132 97 186 186 97 136 170 132 129 ...
##  $ density             : num  1.001 0.994 0.995 0.996 0.996 ...
##  $ pH                  : num  3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
##  $ sulphates           : num  0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
##  $ alcohol             : num  8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
##  $ quality             : int  6 6 6 6 6 6 6 6 6 6 ...
##  $ score               : Ord.factor w/ 7 levels "3"<"4"<"5"<"6"<..: 4 4 4 4 4 4 4 4 4 4 ...
##  $ class               : Ord.factor w/ 3 levels "Poor"<"Medium"<..: 2 2 2 2 2 2 2 2 2 2 ...

单变量分析

你的数据集结构是什么?

本数据集,共有4898个观测值,共有13个变量(注意X变量是一个行数标识符,为int类型),具体如下所示

## 'data.frame':    4898 obs. of  14 variables:
##  $ fixed.acidity       : num  7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
##  $ volatile.acidity    : num  0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
##  $ citric.acid         : num  0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
##  $ residual.sugar      : num  20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
##  $ chlorides           : num  0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
##  $ free.sulfur.dioxide : num  45 14 30 47 47 30 30 45 14 28 ...
##  $ total.sulfur.dioxide: num  170 132 97 186 186 97 136 170 132 129 ...
##  $ density             : num  1.001 0.994 0.995 0.996 0.996 ...
##  $ pH                  : num  3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
##  $ sulphates           : num  0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
##  $ alcohol             : num  8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
##  $ quality             : int  6 6 6 6 6 6 6 6 6 6 ...
##  $ score               : Ord.factor w/ 7 levels "3"<"4"<"5"<"6"<..: 4 4 4 4 4 4 4 4 4 4 ...
##  $ class               : Ord.factor w/ 3 levels "Poor"<"Medium"<..: 2 2 2 2 2 2 2 2 2 2 ...

你的数据集内感兴趣的主要特性有哪些?

我所感兴趣的是哪些特征影响到了最终的人员评分(quality), 通对文档的理解,过高的volatile.acidity水平下会导致不愉快的醋味,会降低评分。 一定量的柠檬酸(citric.acid)可以为葡萄酒添加“新鲜度”和风味,会增加评分。

通过以上绘图,我发现,density,residual.sugar和alcohol的分布不大对称,这说明,数据集中的白酒在此两个指标上是存在某些差异的。density,residual.sugar和alcohol也纳入主要特征进行考量。

你认为数据集内哪些其他特征可以帮助你探索兴趣特点?

其他的一些变量,比如与二氧化硫相关的一些变量(比如free.sulfur.dioxide,total.sulfur.dioxide),也可能对评分有影响。 具体对评分的影响如何,还需经过后面的分析发掘。

根据数据集内已有变量,你是否创建了任何新变量?

目前创建了两个新变量,分别是score和class,score是对quality转为因子变量的列,而class,则是将quality划分为三个区间,分别是小于6,等于6或者7,大于7,将对应的三个区间转为因子即得class。

在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做?

对于residual.sugar数据,分布呈现长尾右偏斜,所以这里,我对其进行了对数转换,再次作出直方图,分布呈现双峰形状,两峰值大概分别对应1.5,10.0。从residual.sugar数据来看,有较多的酒是分布在1.5和10.0附近的。

双变量绘图选择

##  [1] "fixed.acidity"        "volatile.acidity"     "citric.acid"         
##  [4] "residual.sugar"       "chlorides"            "free.sulfur.dioxide" 
##  [7] "total.sulfur.dioxide" "density"              "pH"                  
## [10] "sulphates"            "alcohol"              "quality"             
## [13] "score"                "class"

绘制一张相关性的热力图

绘制矩阵散点图

绘制矩阵散点图

  • 对于连续变量,我这里绘制其散点图和其趋势线,位于下三角区域。

  • 对于因子变量,这里选择箱线图来表示,位于上三角区域。

## Time difference of 120.321 secs

score ~ alcohol

下面,来看看score与alcohol之间的散点图

上述散点图相互覆盖,且score是连续的整型分类变量,这里,为了让其显示出连续,将散点图调为抖动,再来观察 这里将散点抖动图的相对抖动宽度设为0.5,这样,就感觉评分间是平滑过渡的。

这里将散点抖动图,抖动的相对宽度采用默认设置, 再在上面添加一个箱线图图层,同时将箱体透明度设置为0.1,这样可以看到落入其中的散点。 再对每个score添加一个均值统计量,标记方式为一个红色的圆点。 最后添加一个趋势线,方法使用线性回归,来观察散点趋势。

看看score的统计计数情况。

## 
##    3    4    5    6    7    8    9 
##   20  163 1457 2198  880  175    5

很明显可以看出,score 与 alcohol 呈现较强的正相关性。

score ~ density

查看 score 与density 的关系图,同样采用之前的方式:散点抖动图,箱线图,均值统计量,趋势线。

由于density有较少的极值,导致上述图形看起来,在竖直方向存在较多空区域,调整纵轴取值后。如下

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9871  0.9917  0.9937  0.9940  0.9961  1.0390

调整 y方向的限制为 0.9871到1.005,效果如下。

可以看出,密度与score之间呈负相关性。

密度这一变量是由其他变量决定的,比如,alcohol与密度呈负相关(相关系数为-0.78),而alcohol与score是呈正相关的,这也间接说明了,密度与score之间呈负相关。

score ~ fixed.acidity

查看 score 与 fixed.acidity 之间的关系图。方法同上。

根据上图,似乎score为4,5,6,7,8时,对应的fixed.acidity的中位数差不多。也就是说,fixed.acidity不大能预测score。

放大看试试,这里将y方向限制在5到10之间。

换成class,来查看,也能看出,fixed.acidity不大能预测classs。

上述两幅图也表明各个种类酒在fixed.acidity 的品控方面相差无几。

quality ~ volatile.acidity

观察 quality 与 volatile.acidity 之间的关系,这里取消掉趋势线,其他如之前操作。

文档中提到过,葡萄酒中醋酸的含量,在过高的水平下会导致不愉快的醋味。可以通过查看各个的极值,来验证这一说法。在上图7个分类中,score 分别等于 4,5,6,7,8,9 时,可以看到对应酒的极值(最大异常值)均在变小。

再来看看class,是否有不一样的结果。

上图可看出,中等酒的volatile.acidity更低些。下等酒的volatile.acidity更高。上等酒的volatile.acidity则稍高于中等酒。

quality ~ citric.acid

文档中提到了一定量的柠檬酸能促进酒的风味。

查看 quality 与 citric.acid 之间的关系,这里通关散点图外加一条拟合曲线展示,拟合方式选取的auto。

放大上图部分,取中间98%数据(首尾各去除1%)观察。即得下图,可以看出,柠檬酸含量大致在0.3(单位为克/升)的时候,评分较高。

使用分面图,看能否得到评分较高的酒与评分较低的酒之间的柠檬酸含量是不是不同。

再次通过之前方法查看 score 与 citric.acid 之间关系。

查看score统计计数

## 
##    3    4    5    6    7    8    9 
##   20  163 1457 2198  880  175    5

小结:

  • 文档中,提到过,一定量的柠檬酸可以为葡萄酒添加“新鲜度”和风味。通过上图,大致能看出,大部分酒的柠檬酸含量是在0.25 和 0.35之间,大致可以认为,柠檬酸含量在0.25和0.35之间时,风味会更好。

  • 虽然score = 9的中位数和均值明显高于其他分类,但是,这里由于score=9的数量太少(只有5个),不能得出柠檬酸含量接近0.4时,风味会更好,进而评分会更高。

  • 同时,评分较高的酒,可以看出,其区间更小,从4分到8分,箱线图的‘箱’在逐步的变小。score = 9数据量少,不算其中。

注意:以上柠檬酸数值单位为克/升。

再来看看class 与 citric.acid 间关系。

可以看出,等级越高的酒,箱体越窄,说明品质越高的酒,它们的citric.acid含量波动越小,较为固定,也可以说明品控把握良好。

score ~ pH

查看 score 与 pH之间关系,方法如之前所示。

再查看 class 与 pH关系。

可以看出,pH与得分是呈较弱的正相关的。

score ~ chlorides

查看 score 与 chlorides 之间关系。

放大局部看看

查看 class 与 chlorides 之间关系。

可以看出,score 以及class 与 chlorides呈负相关。

score ~ residual.sugar

查看 score 与 residual.sugar 之间关系。

查看 class 与 residual.sugar 之间关系。

上面可以看出,score和class与residual.sugar呈弱负相关,且酒的等级越高,箱线图中的‘箱体越窄’,也可从某个角度说,对于residual.sugar的品控把握越好。

score ~ total.sulfur.dioxide

查看 score 与 total.sulfur.dioxide 之间关系。

查看 class 与 total.sulfur.dioxide 之间关系。

可以看出,score,class 与 free.sulfur.dioxide呈较弱的负相关性。

score ~ free.sulfur.dioxide

查看 score 与 free.sulfur.dioxide 之间关系。

查看 class 与 free.sulfur.dioxide 之间关系。

可以看出,score,class与free.sulfur.dioxide几乎不相关。

score ~ sulphates

查看 score 与 sulphates 之间关系。

查看 class 与 sulphates 之间关系。

可以看出,score,class 与 sulphates 呈较弱的正相关。

alcohol ~ density

查看 alcohol 与 density 之间关系,这里两者都是数值变量,选取散点图,设置透明度为0.2。

同时,x方向,剔除density中1%之前的数据和99%之后的数据,最后,加上一条拟合曲线,拟合方法选取为auto。

可以看出,酒精与密度之间是呈较强的负相关的。

residual.sugar ~ density

依据上面的方法,作出 residual.sugar 与 density 之间的散点图,如下。

可以看出,residual.sugar 与 density 呈正相关。

free.sulfur.dioxide ~ total.sulfur.dioxide

作出 free.sulfur.dioxide 与 total.sulfur.dioxide 之间的散点图,这里,限制x轴为0到300,y轴为0到150。

x轴范围在0到250这一段,可以看出,free.sulfur.dioxide 与 total.sulfur.dioxide 之间呈正相关。

fixed.acidity ~ pH

再来看看 fixed.acidity 与 pH 之间的关系。可以看到呈较弱的负相关性。

双变量分析

探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?

这里关注下 quality 与其他变量的关系

一般情况来说,品质较好的酒,品控也是较好的,反映在理化性质上,就是用料的区别,如果某个用料种类一样,那么唯一的区别就在于该用料的含量上了,品控更好,或者可以说,这个用料含量的范围更窄,更精准。通过以上作图,这里是以箱线图来表示的,我们可以看出,某些用料(citric.acid,residual.sugar,free.sulfur.dioxide),随着等级的提升,箱体确实是越来越窄的,说明对这些用料的控制,一定程度上决定了酒的品质。

这里挑出与quality相关性系数绝对值超过0.15的变量,并列出其相关性大小。

  • quality 与 alcohol,相关系数为 0.44,score 与 alcohol 呈现较强的正相关性。

  • quality 与 density,相关系数为-0.31。

  • quality 与 chlorides,相关系数为-0.21。

  • quality 与 volatile.acidity,相关系数为-0.19。

  • quality 与 total.sulfur.dioxide,相关系数为-0.17。

两个主要变量与密度之间的相关性。 alcohol 与 density

相关系数为-0.78,呈强负相关。这个很好理解,这里alcohol描述的是酒精体积占比。我们知道,通常情况下,酒精的密度是小于水的。那么酒精占比越大,酒的密度就越小。

residual.sugar 与 density

相关系数为0.84,呈强正相关。这个可以跟上述一样理解。糖的密度大于水,溶解于水中,那么随着糖分的增加,势必会引起水的密度增加。

其他变量与密度相关性如下:

  • total.sulfur.dioxide 与 density相关系数为0.53,呈中等正相关。

  • free.sulfur.dioxide 与 density相关系数为0.29,呈弱正相关。

  • quality 与 density相关系数为-0.31,呈弱负相关。

  • fixed.acidity 与 density相关系数为0.27,呈弱正相关。

  • chlorides 与 density相关系数为0.26,呈弱正相关。

free.sulfur.dioxide 与 total.sulfur.dioxide * 两者正相关,相关系数为0.62。

  • 这两者是二氧化硫在酒中存在的不同形式。一部分以二氧化硫分子形式存在,一部分则以游离形式存在。两者互相解释对方。故相关性较高

fixed.acidity 与 pH * 两者相关性高达-0.43,说明了酒的酸性主要是取决于fixed.acidity,也就是不易挥发性酸,酒石酸。

  • 酒石酸含量越高,pH越小,酒越酸。

你是否观察到主要特性与其他特性之间的有趣关系?

在单变量分析中所提到的主要特征,一共5个。

  • volatile.acidity,易挥发性酸,醋酸,score 分别等于 4,5,6,7,8,9 时,可以看到对应酒的极值(最大异常值)均在变小。

  • citric.acid,大部分酒的柠檬酸含量是在0.25和0.35之间,(单位为克/升),大致可以认为,柠檬酸含量在0.25和0.35之间时,风味会更好。
  • alcohol,score 与 alcohol的皮尔逊相关系数为0.44,呈现较强的正相关性。

  • density,score 与 alcohol的 皮尔逊相关系数为-0.31,呈现中等负相关。密度这一变量是由其他变量决定的,比如,alcohol与密度呈负相关(相关系数为-0.78),而alcohol与score是呈正相关的,这也间接说明了,密度与score之间呈负相关。其他变量与密度之间的相关性,见上题描述。

  • residual.sugar, score 与 residual.sugar的皮尔逊相关系数为-0.1,呈微弱负相关,且酒的等级越高,箱线图中的‘箱体越窄’,也可从某个角度说,对于residual.sugar的品控把握越好。

你发现最强的关系是什么?

通过相关性分析,发现最强的关系是 residual.sugar 与 density,两者皮尔逊相关系数高达 0.84.

多变量绘图选择

为了获取 volatile.acidity 与 alcohol 之间的相互作用对 score是否有影响。 这里绘制 volatile.acidity 与 alcohol 之间散点图,同时,点的颜色由该数据点对应的score来表示。

volatile.acidity ~ alcohol ~ score

从上图大致可以看出,评分较高的酒,酒精度数大概在12到14之间,挥发性酸大概在0.1到0.4之间; 评分较低的酒,酒精度数大概在9到11之间,挥发性酸大概在0.3到0.6之间。

为了获取 volatile.acidity 与 alcohol 之间的相互作用对 class是否有影响。 这里绘制 volatile.acidity 与 alcohol 之间散点图,同时,点的颜色由该数据点对应的class来表示。

## $title
## [1] "alcohol by volatile.acidity and class"
## 
## $subtitle
## NULL
## 
## attr(,"class")
## [1] "labels"

上图可以看出, 上等酒的酒精度数较高,下等酒的酒精度数较低。而从挥发性酸这一维度上观察,中等酒与上等酒大致在0.1到0.4之间,下等酒的区域更为宽广,大致在0.2到0.6之间。

citric.acid ~ density ~ score

为了获取 citric.acid 与 density 之间的相互作用对 score 是否有影响。 这里绘制 citric.acid 与 density 之间散点图,同时,点的颜色由该数据点对应的score来表示。

上图可以看出,打分较高的酒,密度大致在0.99至0.995之间,柠檬酸大致在0.2至0.5之间。 打分较低的酒,密度大致在0.9925至1.000之间,柠檬酸大致在0.1至0.6之间。

这里,再分析两者对class的交互作用。

上图可以看出,从柠檬酸维度观察,poor酒的柠檬酸取值范围更广,Medium酒范围较窄,Ideal范围似乎比Medium宽些,但要小于poor。 从密度维度考察,poor密度更大,Medium较小,Ideal更小。

residual.sugar 与 density

为了获取 residual.sugar 与 density 之间的相互作用对 score 是否有影响。 这里绘制 residual.sugar 与 density 之间散点图,同时,点的颜色由该数据点对应的score来表示。

首先可看出,密度与剩余糖含量呈正相关。再来看评分,固定某一residual.sugar,可以看出,评分较高的酒密度更小。固定某一密度,当密度小于0.995时,各个评分在糖含量分布上,7,8分对应的剩余糖含量要高于低分数。当密度大于0.995时,3,4分对应的糖含量较低,5,6分对应的糖含量较高,其他评分对应的糖含量居中。

为了获取 residual.sugar 与 density 之间的相互作用对 class 是否有影响。 这里绘制 residual.sugar 与 density 之间散点图,同时,点的颜色由该数据点对应的class来表示。

密度上考量,poor酒密度更大,Medium酒密度居中,Ideal酒密度较小。 剩余糖含量上考量,Medium和Ideal两者相当且范围更广,Poor的范围更窄。

volatile.acidity ~ citric.acid ~ score

为了获取 volatile.acidity 与 citric.acid 之间的相互作用对 score 是否有影响。 这里绘制 volatile.acidity 与 citric.acid 之间散点图,同时,点的颜色由该数据点对应的score来表示。

放大局部看,这里x,y方向,均限制为0到0.8之间。

高评分的柠檬酸含量集中于0.3附近,挥发性酸集中于0.1到0.4之间,下图也可印证。

多变量分析

探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性?

存在相互促进的特性,当各个特性处于某个特定范围时,将相互加强,如下 评分较高的酒,酒精度数大概在12到14之间,挥发性酸大概在0.2到0.4之间; 评分较低的酒,酒精度数大概在9到11之间,挥发性酸大概在0.3到0.6之间。

这些特性之间是否存在有趣或惊人的联系呢?

好的品味,源于特定的搭配配比。评分是由专业人士来打分的,他们是通过感官来感受的,也就是看,闻,尝。三种体验之中,我认为后两者更为重要,如果好看的酒,不好喝,也就是好看罢了,评分不会太高,因为酒是用来喝的,不是一种观赏品。那么,剩下的就是味觉刺激了,通过以上观察发现,评分较高的酒,他们在某些方面是相似的,比如,酒精度数偏高,挥发性酸大致在0.1到0.4的范围内,柠檬酸含量不能太低,也不能太高,在0.2到0.5范围内较多。

选项:你是否创建过数据集的任何模型?讨论你模型的优缺点。

这里并没有创建模型。


定稿图与总结

绘图一

描述一

上图是对residual.sugar经过对数转换后所作的直方图。数据呈双峰分布,换句话说,大部分糖含量是处于这两个波峰附近的.两个波峰对应的横轴坐标,一个大概为1.5,另一个大概为10.0。

绘图二

描述二

文档中,提到过,一定量的柠檬酸可以为葡萄酒添加“新鲜度”和风味。通过上图,大致能看出,大部分酒的柠檬酸含量是在0.25 和 0.35之间,大致可以认为,柠檬酸含量在0.25和0.35之间时,风味会更好。

虽然score = 9的中位数和均值明显高于其他分类,但是,这里由于score=9的数量太少(只有5个),不能得出柠檬酸含量接近0.4时,风味会更好,进而评分会更高。

同时,评分较高的酒,可以看出,其区间更小,从4分到8分,箱线图的‘箱’在逐步的变小(score = 9数据量少,不算其中)。也说明高评分的酒对柠檬酸的要求更为严格。

注意:以上柠檬酸数值单位为克/升。

绘图三

描述三

从上图大致可以看出,评分较高的酒,酒精度数大概在12到14之间,挥发性酸大概在0.1到0.4之间; 评分较低的酒,酒精度数大概在9到11之间,挥发性酸大概在0.3到0.6之间。


反思

遇到的难点

思路历程

提升


参考资料

colorbrewer2

Facets (ggplot2)

FACTOR VARIABLES

Diamonds Exploration by Chris Saden